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摘要 : 


[ 目的 ] 为 更 方便 地 查询 和 利用 各 个 领域 的 海量 关联 数据 ,提出 一 种 关联 数据 知识 图 谱 概览 的 生成 方法 ， 


使 得 用 户 在 查询 前 就 能 了 解 关 联 数据 访问 点 的 内 部 数据 结构 。[ 方法 ] 通过 SPARQL 查询 关联 数据 所 包含 的 领 


域 知识 关系 , 针对 每 一 个 知识 关系 构建 知识 图 谱 概 览 三 


元 组 并 形成 初步 的 知识 图 谱 概览 ， 再 抽取 每 个 知识 分 类 


的 知识 图 谱 概览 三 元 组 并 合并 到 前 者 形成 完整 的 知识 图 谱 概览 。[ 结果 】 研 发 Cytoscape 插件 实现 此 方法 ， 并进 
一 步 提供 知识 图 谱 概览 可 视 化 功能 。[ 局 限 ] 不 能 处 理 匿名 节点 等 复杂 知识 分 类 抽取 。[ 结论 ] 在 生物 医学 领域 


分 别 进行 单 点 抽取 、 关 联 “ 桥 "和 关联 “包含 "三 项 测试 , 测试 结果 表明 该 方法 抽取 速度 快 而 稳定 , 抽取 结果 的 查 全 


率 高 ， 且 不 需要 网 络 爬 虫 或 额外 的 索引 工作 。 


关键 词 : 关联 数据 知识 图 谱 概 览 SPARQL  Cytoscape 
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1 引 Ë 


SEB (Linked Data) 提 出 的 目的 是 构建 计算 
机 能 理解 的 语义 数据 网 络 ， 而 不 仅仅 是 人 能 读 懂 的 文 
档 网 络 ,以 便于 在 此 之 上 构建 更 智能 的 应 用 。 关 联 数 
据 主要 通过 资源 描述 框架 RDF!(Resource Description 
Framework) 格 式 来 表示 , 它 将 一 个 资源 描述 成 一 组 三 
元 组 (主体 , 谓语 , 客体 ).SPARQLB] 是 W3C 推荐 标准 ， 
提供 对 Web 上 或 RDF 存储 中 的 内 容 进行 查询 和 处 理 
的 语言 和 协议 。 每 个 关联 数据 都 提供 SPARQL 访问 点 
(SPARQL Endpoint), 它 是 一 种 HTTP 绑 定 协议 , 用 
于 通过 HTTP 进行 SPARQL 查询 , 并 返回 相应 数据 。 
例如 , Linked Open Datal 项 目的 宗旨 在 于 号 召 将 现 有 
数据 发 布 成 关联 数据 ,并 将 不 同 数 据 源 互联 起 来 。 截 
至 2014 年 , 1014 个 包含 数 十 亿 RDF 三 元 组 的 数据 集 


各 个 领域 。 

尽管 关联 数据 和 RDF 本 体形 式 化 的 优点 在 于 能 
够 使 异 构 分 布 式 大 数据 进行 无 颖 整合 , 但 是 这 种 形式 
化 需要 一 种 格式 将 数据 从 预定 义 模式 的 柳 锁 中 解脱 出 
来 。 使 用 这 种 格式 定义 的 数据 为 查询 带 来 了 挑战 
为 用 户 无 法 依赖 事先 获得 的 数据 映射 进行 SPARQL Æ 
询 。 也 就 是 说 , 虽然 关联 数据 可 以 通过 SPARQL 查询 
终端 进行 查询 , 但 是 对 于 某 个 特定 领域 的 数据 用户 
在 提交 查询 请 求 前 必须 事先 知道 此 关联 数据 的 内 部 数 
据 结构 ， 也 就 是 知识 图 谱 概览 [I(Knowledge Graph 
Schema)。 知识 图 谱 概 览 描述 关联 数据 包含 哪些 知识 分 
类 (Class) 、 知 识 关 系 (Object Property)， 以 及 知识 关系 
如 何 关联 知识 点 (Instance) 组 成 的 知识 分 类 由。 在 此 基 
础 之 上 , 用 户 才 能 写 出 SPARQL 语句 进行 查询 , 否则 
将 无 法 针对 海量 数据 进行 查询 。 这 就 如 同 查 询 数 据 库 


在 Linked Open Data 项 目 中 建立 了 关联 中 ,涵盖 医疗 
卫生 、 电 子 商务 、 生 物化 学 、 国 防 军事 、 人 文 历史 等 


之 前 ,首先 要 了 解数 据 库 的 表 结 构 (Schema) 才 行 。 
此 , 本 文 提 出 一 种 快速 有 效 抽取 关联 数据 知识 图 谱 概 
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览 并 进行 可 视 化 的 方法 , 并 在 Cytoscap "平台 上 以 插 
件 形式 进行 实现 , 力求 降低 用 户 查 询 和 使 用 海量 关联 
数据 的 门槛 。 


2 研究 现状 介绍 


知识 图 谱 概 览 的 提取 和 可 视 化 对 知识 工程 意义 重 
X. 目前 主要 用 于 辅助 感知 、 构 建 和 调试 知识 图 谱 的 
ZEA Z|, VA 2007 年 关联 数据 的 提出 为 转折 点 ， 
国内 外 相关 算法 和 工具 的 研究 经 历 了 以 下 两 个 阶段 。 
2.1 知识 图 谱 概 览 的 可 视 化 

由 于 服务 对 象 多 为 本 体 设计 和 构建 人 员 , 早期 知 
识 图 谱 概 览 的 可 视 化 工具 ， 大 多 数 以 本 体 编辑 器 的 插 
件 形 式 提供 给 用 户 。 例 如 , 基于 Protege PA peg en 
的 可 视 化 插件 包括 最 早 在 2003 年 研发 的 TGVizTabt"、 
Protégé 默认 的 内 置 插件 OntoGraf 00 和 Protégé-OWL"! 
插件 NavigOWLD 等 。 还 有 基于 Neon-Toolkit ^ 4s ffc 
编辑 器 的 可 视 化 插件 KC-Vizt SE, 535, GrOWLU*I 
等 少量 工具 是 以 独立 的 Java 桌面 程序 形式 ( 非 插件 ) 提 
供给 用 户 。 以 上 这 些 可 视 化 工具 有 如 下 特征 。 

(1) 面向 有 向 图 的 可 视 化 思路 

大 多 数 可 视 化 工具 的 功能 是 将 知识 图 谱 概 览 中 的 
知识 分 类 和 知识 关系 映射 为 节点 (Node) 和 边 (Edge) 以 
形成 有 向 图 ， 再 通过 某 种 布局 (Layout) 算 法 (例如 ， 
Spring Layout! ffl Power-Law Graph!" 在 特定 显示 区 
域内 展示 静态 或 动态 的 知识 图 谱 概 览 示 意图 。 虽 然 还 
有 个 别 其 他 思路 (例如 ,将 知识 图 谱 概览 转换 为 UML 
图 例 的 OWLGrEd" "ff OntoViz"*5, 但 有 向 图 是 知识 
图 谱 概览 可 视 化 的 主流 思路 。 

(2) 面向 本 地 数据 的 可 视 化 机 制 

为 将 知识 图 谱 概 览 进行 可 视 化 , 用 户 必须 将 知识 
图 谱 数 据 导 人 到 这 些 可 视 化 工具 中 。 这 要 求 数据 存储 
在 本 地 客户 端 , 而 且 用 户 要 有 完整 的 数据 。 也 就 是 说 ， 
除非 用 户 是 知识 图 谱 的 作者 或 是 拥有 完整 数据 读 取 权 
限 的 使 用 者 ,否则 一 般 的 用 户 无 法 进行 知识 图 谱 概 
览 可 视 化 操作 ,虽然 也 有 一 些 如 Web VOWL! xc FE AY 
本 体 编辑 器 提供 基于 Web 的 可 视 化 操作 入 口 , 但 是 
操作 之 前 还 需要 将 完整 的 数据 上 传 到 服务 器 。 总 之 ， 
现 有 的 可 视 化 工具 只 能 处 理 完 整 的 本 地 数据 , 无 法 
处 理 以 SPARQL 访问 点 查询 为 基础 的 关联 数据 知识 
图 谱 可 视 化 。 


数据 分 析 与 知识 发 现 


(3) 海量 数据 的 可 视 化 局 限 性 

现 有 的 本 体 编辑 器 往往 限制 显示 在 图 面板 中 的 节点 
数 少 于 10 000, 这 样 避免 了 海量 数据 的 可 视 化 问题 例 
如 ，OntSpheret! 工 具 分 析 报 告 指出 稍微 超过 1 000 节 
点 会 导致 其 显示 节点 或 标签 时 出 现 重奏 问 题 ; 
TGVizTab 和 OntoViz 在 节点 数 超过 300 之 后 便 无 法 进 
行 可 视 化 。NavigOWL 在 Power-Law Graph 布局 算法 
上 进行 改进 , 在 节点 数 为 10 000 至 100 000 的 数据 集 
上 进行 对 比 测试 , 结果 显示 其 性 能 优 于 传统 的 Spring 
Layout 可 视 化 算法 。 即 便 如 此 , 包括 NavigOWL 在 内 
的 这 些 工具 也 难以 可 视 化 数量 级 在 百 万 、 千 万 以 上 的 
关联 数据 知识 图 谱 。 
2.2 ”知识 图 谐 概览 的 抽取 
自 2007 年 关联 数据 知识 图 谱 提 出 以 来 ,其 分 布 
式 、 海 量 数据 的 内 在 特征 使 得 早期 的 可 视 化 工具 无 法 
满足 要 求 。 越 来 越 多 不 同 领域 的 关联 数据 被 建立 起 来 ， 
其 推广 和 使 用 亚 需 向 用 户 提 供 关联 数据 知识 图 谱 概览 
的 可 视 化 方法 和 工具 。 这 个 矛盾 使 得 人 们 从 知识 图 谱 
概览 可 视 化 的 研究 转向 知识 图 谱 概 览 抽取 的 研究 。 研 
究 方 向 转变 的 原因 在 于 : 关联 数据 虽然 是 海量 的 且 难 
直接 进行 可 视 化 , 但 是 绝 大 多 数 的 数据 是 具体 的 事 
实数 据 , 而 其 中 知识 图 谱 概览 相关 数据 并 不 多 。 这 正 
如 同 数据 库 记 录 条 数 可 以 有 上 千 万 条 , 但 是 表 结 构 和 
字段 个 数 并 不 是 海量 的 。 如 果 能 够 在 对 关联 数据 进行 
可 视 化 之 前 , 先 将 它 的 知识 图 谱 概 览 抽取 出 来 ,可 以 
大 大 降低 可 视 化 内 容 的 数量 级 。 基 于 以 上 思路 , 近年 
来 关联 数据 研究 人 员 研 发 出 知识 图 谱 概 览 抽取 的 方法 
和 工具 ,主要 有 以 下 三 种 。 

(D A 方法 : 基于 网 络 息 虫 的 关联 数据 索引 方法 

2011 4E, Semantic Web Challenge(Billion Triples 
Track) jk F Konrath 等 研发 出 SchemEX TA, 可 以 
All FMC He op PE at SS OE ESI RS, JER 
性 时 间 复 杂 度 下 的 知识 图 谱 概 览 抽取 功能 。SchemEX 
具有 面向 RDF 数据 流 的 动态 索引 机 制 ， 这 使 得 抽取 与 具 
体 的 疏 虫 方法 松散 耦合 。 该 工具 缺点 是 : 需要 通过 网 络 
疏 虫 获取 、 扫 描 关 联 数据 的 全 部 数据 ， 而且 需要 做 额外 
的 数据 索引 ; 如 果 关 联 数据 不 允许 候 取 , 则 无 法 处 理 。 

(2) B 方 法 : 以 知识 分 类 为 切入 点 的 SPARQL 查询 
方法 

主要 有 两 种 : Bl 方法 通过 rdfitypet Al rdfs: 


NE 


subclassOft "等 获得 RDF Schema"? (RDFS)2 Jjl] fr] Atl 
WR 4 28 Ez MK (Hierarchy) K 2 EVE"; B2 方法 通过 
P3. owlLrange"!, owl:Class 等 获得 Web 
Ontology Language’ (OWL) 2& Sil) [^] tl iH 4 FE * J& HK 
(Relation) 关 系 概览 "。 这 些 方法 只 考虑 显 性 的 知识 图 谱 
概览 , 也 就 是 关联 数据 明确 定义 知识 分 类 关系 概览 的 
情况 。 但 是 , 根据 Gottron 等 对 大 量 关 联 数据 知识 图 谱 
概览 的 计量 研究 发 现 ,这 种 方法 只 能 获得 63.5% 到 
88.1% 的 知识 图 谱 概览 信息 中 ,原因 在 于 : 关联 数据 没 
有 明确 定义 rdf:typerdfs:Class 和 owl:Class 的 情况 是 常 
有 的 现象 ,而 隐 性 知识 图 谱 概览 几乎 在 每 个 关联 数据 
中 都 会 出 现 。 

(3) C 方法 : 基于 RDF 图 摘要 的 替代 方法 。 

Zneika 等 的 提出 基于 top-k 近似 拟 合 的 RDF 图 摘 
要 生成 方法 ,可 以 将 海量 关联 数据 转换 成 描述 知识 库 
内 容 的 知识 图 谱 概 览 。 此 方法 缺点 在 于 转换 获得 的 知 
识 图 谱 概 览 只 是 关联 数据 内 容 和 结构 的 “近似 ”， 存在 
一 定 误差 。 

与 上 述 三 种 方法 不 同 , 本 文 提 出 以 知识 关系 为 切 
人 人 点、 完全 使 用 SPARQL 查询 的 知识 图 谱 概 览 抽 取 实 
现 方法 。 该 方法 在 抽取 步骤 中 借鉴 融合 B 方法 的 部 分 
思路 。 在 可 视 化 思路 上 ,仍然 采纳 以 有 向 图 作为 可 视 
化 结果 的 思路 。 本 文 方法 抽取 速度 快 而 稳定 ,抽取 绪 
果 查 全 率 高 , 而 且 不 需要 网 络 息 虫 或 额外 的 索引 工作 ， 
也 避免 关联 数据 未 能 明确 定义 rdftype 、rdfs:Class 和 
owl:Class 户 的 遗漏 情况 。 


3 研究 思路 与 框架 


知识 图 谱 概览 抽取 思路 如 图 1 所 示 。 本 文 提出 的 
知识 图 谱 概 览 抽 取 方 法 主要 包含 5 个 步 又 : 

(1) 查询 关联 数据 所 包含 的 知识 关系 集合 P。SPARQL 
查询 语句 为 : 

SELECT distinct ?p WHERE { ?s ?p ?o .} 

(2) 过 滤 掉 集合 P 中 以 rdf(http://www.w3.org/ 
1999/02/22-rdf-syntax-ns), rdfs(http://www.w3.org/2000/ 
01/rdf-schema#)#ll_ owl(http://www.w3.org/2002/07/owl#) 


为 命名 空间 的 与 领域 知识 无 关 的 知识 关系 ,得 到 集合 
P*。 具 体 来 说 ,对 于 知识 关系 集合 P 中 的 每 一 个 知识 
关系 p, 抽取 它 的 命名 空间 n; 如 果 命 名 空间 n 是 rdf, 
rdfs 或 owl, 则 将 p 纳入 到 待 过 滤 的 知识 关系 集合 Q; 


owl:domain 


< 开始 》 


y 
查询 关联 数据 所 包含 的 知识 关系 集合 P 


y 


SS 


过 滤 掉 集合 P 中 以 rdfrdfs: 和 ow] 为 命名 空间 的 知识 关系 形成 P? 


对 于 P’ 中 每 一 个 知识 关系 p 构 建 知识 图 谱 概览 三 元 组 
并 形成 知识 图 谱 概 览 G1 


提取 每 个 知识 分 类 的 知识 图 谱 概 览 三 元 组 


并 形成 知识 图 谱 概览 G2 


合并 G1 和 G2 形成 知识 图 谱 概 览 G 


Al 知识 图 谱 概 览 抽取 思路 


最 后 将 Q 中 的 每 个 元 素 从 P 中 删除 ,得 到 集合 Po 

(3) 构建 集合 P’ 中 每 一 个 知识 关系 p 的 知识 谱 图 
概览 Glo 

以 主体 和 客体 为 切入 点 , 构建 知识 关系 p 的 知识 
图 谱 概 览 G1: 查询 以 知识 关系 p 为 谓语 的 三 元 组 的 主 
体 s 和 客体 o， 分 别 查询 主体 s 和 客体 o 的 知识 分 类 集 
合 Cl 和 C2; 如 果 Cl 和 C2 都 不 为 空 , 则 对 于 每 一 个 
(cl, c2) 组 合 (其 中 clECcl, c2EC2), 构建 以 cl 为 主体 、 
p 为 谓语 和 c2 为 客体 的 知识 图 谱 概览 三 元 组 , 并 纳入 
到 知识 图 谱 概 览 G1 中 。SPARQL 查询 语句 为 : 


CONSTRUCT {?classl <" + p + "> ?class2 } WHERE { ?s <" 
+p+">?o .?s a ?classl .?o a ?class2. }" 


以 谓语 为 切入 点 , 构建 知识 关系 p 的 知识 图 谱 概 
览 G1: 查询 以 知识 关系 p 为 主语 、 以 rdfs: domain"?! 
为 谓语 的 三 元 组 客体 cl; 查询 以 知识 关系 p 为 主语 、 
以 rdfs:rangeb 为 谓语 的 三 元 组 客体 c2; 如 果 cl 和 c2 
都 能 查询 到 ， 则 构建 以 cl 为 主体 、p 为 谓语 和 c2 为 客 
体 的 知识 图 谱 概 览 三 元 组 ,并 纳入 到 知识 图 谱 概 览 
G1 中 。 

(4) 查询 描述 知识 分 类 之 间 直 接 关 系 的 知识 图 谱 
三 元 组 , 并 纳入 到 知识 图 谱 概览 G2 中 。 具 体 来 说 , A 
询 以 rdfs:subClassOf , owlequivalentClass"" , owl: 
complementOf P?! owl: disjointWith ANAA EJE 
2H, WRI SSCA ERA PRA e EAS ei, DU] 
将 这 个 三 元 组 纳入 到 知识 图 谱 概 览 G2 中 。 
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(5) 将 G1 与 G2 合并 到 GG 就 是 最 终 的 知识 图 谱 
概览 。 具 体 来 说 ,去 掉 知 识 图 谱 概览 G1 中 重复 的 知识 
图 谱 概 览 三 元 组 ,形成 知识 网 谱 概览 GI'; 去 掉 知识 
图 谱 概览 G2 中 重复 的 知识 图 谱 概 览 三 元 组 ， 形 成 知 
识 图 谱 概 览 G2’; 将 GVA G2’ 合 并 成 知识 图 谱 概 览 
G'; 去 掉 知 识 图 谱 概 览 G" 中 重复 的 知识 图 谱 概览 三 元 
组 , 最 终 形成 知识 图 谱 概 览 G。 


4 ”实验 过 程 与 结果 


4.1 实验 对 象 

由 于 近年 来 生物 医学 领域 出 现 了 一 大 批 可 以 查询 
的 结构 化 生物 医学 关联 数据 , 因此 选取 生物 医学 领域 
关联 数据 作为 实验 对 象 。 对 于 生物 医学 研究 人 员 来 说 ， 
将 这 些 海量 关联 数据 用 于 日 党 研究 工作 的 门槛 非常 
高 , 特别 在 生物 医学 领域 的 用 户 交 互 接 口 (SPARQL 访 
问 点 ) 和 SPARQL 查询 整合 方面 的 问题 较 多 。 这 会 使 生 
物 医 学 关联 数据 不 能 得 到 充分 利用 , 很 多 关联 数据 内 
所 包含 的 知识 分 类 、 知 识 点 与 知识 关系 并 不 能 被 生物 
医学 人 员 发 现 和 利用 。 同 时 , SPARQL 的 语法 问题 与 关 
联 数据 的 复杂 性 问题 也 提高 了 生物 医学 研究 人 员 的 使 
用 门槛 。 

在 这 样 的 背景 之 下 ,选取 几 个 最 常用 的 、 免 费 开 
放 的 生物 通路 本 体 关 联 数据 作为 测试 数据 集 , 力求 辅 
助 生物 医学 研究 人 员 完 成 对 生物 医学 关联 数据 的 查 
询 、 检 索 、 解 析 与 重新 组 织 。 具 体 来 说 , 实验 对 象 包 
括 : 多 伦 多 大 学 Bader 实验 室 人 研发 的 Pathway Common 
(PC)?! SRI International 公司 提供 开放 学 术 研 究 
License 的 BioCyc!*!, FIRR Reactome"?! 、 伦 敦 大 学 学 
院 人 研发 的 基因 本 体 HGNC(Human Gene Nomenclature 
Database)jP0 和 欧洲 生物 信息 研究 所 研发 的 BioModel" " , 
42 ”实验 工具 

Cytoscape 是 NBRB 开源 组 织 开 发 的 一 个 专注 于 
开源 网 络 可 视 化 分 析 的 平台 ， 其 核心 是 提供 基础 的 功 
能 布局 和 查询 网 络 ,， 并 依据 基本 数据 形成 可 视 化 网 
络 。 它 最 先 应 用 于 生物 学 领域 , 一般 用 于 整合 复杂 
子 间 的 相互 作用 网 络 和 相关 分 子 的 状态 信息 ,也 广泛 
用 于 可 视 化 蛋白 质 、DNA 等 数据 库 。 

在 平台 功能 上 , Cytoscape 可 使 用 不 同 的 可 视 化 样 
式 显示 生物 分 子 相互 作用 网 络 。 能 够 在 两 个 维度 上 布 
局 网 络 ， 且 有 多 种 布局 算法 可 供 选 择 (包括 环 状 和 弹 得 
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freA GUB J); 可 自由 浏览 、 放 大 、 缩 小 或 平移 网 络 ， 并 
提供 使 用 乌 获 的 形式 导航 大 型 网 络 (100 000 节点 和 边 ) 
HRA RAINERS ŽE; 可 以 对 网 络 图 的 节点 、 连 线 、 
边框 等 进行 注释 ,并 能 够 自 定义 标签 和 颜色 ; 还 可 以 
轻松 组 织 和 管理 多 个 网 络 ， 并 支持 将 网 络 结构 保存 在 
一 个 会 话 文件 中 留存 备用 。 但 是 ，Cytoscape 平台 本 身 
没有 关联 数据 可 视 化 功能 ， 也 没有 知识 图 谱 概 览 抽取 
功能 。 

笔者 研发 了 基于 Cytoscape 平台 的 关联 知识 图 谱 
概览 抽取 插件 ， 并 以 此 作为 实验 工具 分 别 进行 单 点 抽 
取 、 关 联 “ 桥 "和 关联 “包含 "三 项 实验 。 
4.3 ”单个 关联 数据 访问 点 抽取 实验 

(1) 不 同 数据 实验 对 象 的 对 比 实验 
图 2 是 生物 通路 本 体 Pathway Commons" " | 关联 数 
据 访 问 点 的 知识 图 谱 概 览 可 视 化 图 。 其 中 圆 形 节点 表 
示 的 是 知识 分 类 ， 而 节点 之 间 的 箭头 是 知识 关联 。 箭 
头 的 指向 是 从 主语 知识 分 类 到 宾语 知识 分 类 。 知 识 分 
类 和 知识 关联 都 有 文字 Tooltip 显示 它们 的 URI. 

实验 结果 如 表 1 所 示 , 大 部 分 SPARQL 访问 点 的 
知识 图 谱 概 览 抽取 时 间 在 10 分 钟 以 内 ,可 以 达到 实用 
层次 。 用 户 抽取 完成 之 后 ,可 以 将 可 视 化 结果 进行 保 
ff, 下 次 使 用 时 无 需 重新 抽取 。 

(2) 不 同 抽 取 方 法 的 对 比 实验 

以 MeSH(Medical Subject Headings)" | 关联 数据 为 
实验 对 象 , 将 本 文 提 出 的 抽取 方法 与 B 方法 (包含 B1 
和 B2 两 个 方法 ) 进 行 对 比 实验 。 由 于 A 方法 和 C 方 法 
的 作者 未 提供 相关 抽取 工具 下 载 , 所 以 只 选取 B 方法 
进行 分 析 。 

经 过 初步 分 析 ，MeSH 关联 数据 尽管 包含 三 元 组 
总 数 达到 60 多 万 个 , 但 只 包含 28 个 知识 分 类 和 152 
个 知识 关系 。 它 以 自身 的 meshv(http://id.nlm.nih.gov/ 
mesh/vocab#) 命 名 空间 词 表 为 主 , 并 引入 部 分 
VirtRDFP?, pcP?!jgt FOAFFH 词 表 。 如 表 2 Hr, XH 
识 关系 中 标记 rdfs:domain 和 rdfs:range 的 分 别 只 有 6 
个 和 10 个; 知识 分 类 中 标记 owl:Class 的 只 有 16 ^H. 
均 属 于 meshv 命名 空间 词 表 ， 而 明确 标记 rdfs:Class 的 
为 0 个 。 如 表 3 Ata, RA 8 个 标记 rdfs:subClassOf 
的 知识 分 类 ; 除去 owLThing^! 3 H A meshv: 
broaderQualifier 站 和 meshv:Qualifier 中 这 一 组 知识 分 
类 明确 标记 子 类 、 父 类 之 间 的 关系 。 


201711.01981v1 


chinaXiv 


[Ióigfec/nstinks to 
KbniisDescribedUsing 


http:/www.openlinksw.copischemas/xbrl/period Type 
http:/Wwww.openlinksw.com/sc| [operi QmesstypeltemTypeValue 


wa pitemTypeValue 


[costValuationltemiTypeValue 
AYRE YA Relationship TypesitemTypeValue 
afnischemasixbriibalance 


: bio2r9hu ATES OCATION 
http://bio2rdf.org/ns/bopax# CONF AENG 2rdf.org/ns/biopà meo 


ChinaXiv 合 作 期 刊 


总 第 3 期 2017 年 第 3 期 


http:/Wwww.oper 
http://www.openlinksw. dtp 


qmvColumns 
chemasivirtrdfitqmvA Tables 


http://www. openiinksw.com/4chemas/virtrdfizqmvftConds 


图 2 Pathway Commons 的 关联 数据 访问 点 的 知识 图 谱 概 览 抽 取 图 


表 3 MeSH 关联 数据 中 标记 rdfs:subClassOf 的 知识 分 类 


表 1 单个 关联 数据 访问 点 的 知识 图 谱 概览 抽取 
关联 数据 SPARQL 访问 点 RDF 三 元 组 个 数 ”抽取 时 间 ( 分 钟 ) 
Pathway Commons 27 623 683 8.16 
BioCyc 18 532 342 9.57 
MeSH 654 198 10.86 
Reactome 2 980 230 6.45 


#2 MeSH 关联 数据 中 标记 rdfs:domain 和 rdfs:range 
的 知识 关系 


子 类 (知识 分 类 ) 父 类 (知识 分 类 ) 
meshv:TreeNumber owl: Thing 
meshv:Concept owl: Thing 
meshv: Descriptor owl:Thing 
meshv:DescriptorQualifierPair owl:Thing 
meshv:SupplementaryConceptRecord owl:Thing 
meshv:Qualifier owl:Thing 
meshv:Term owl:Thing 


meshv:broaderQualifier meshv:Qualifier 


rdfs:domain rA rdfs:range 
> 知识 关系 
知识 分 类 知识 分 类 


meshv:TreeNumber meshv:parentTreeNumber meshv:TreeNumber 
= meshv:treeNumber meshv:TreeNumber 


meshv:Concept meshv:broaderConcept meshv:Concept 


meshv:Concept meshv:narrowerConcept meshv:Concept 


meshv:Concept meshv:relatedConcept meshv:Concept 
meshv:Descriptor meshv:broaderDescriptor meshv:Descriptor 
一 meshv:hasDescriptor meshv: Descriptor 
= meshv:allowableQualifier meshv: Qualifier 
— meshv:hasQualifier meshv:Qualifier 


meshv:Qualifier meshv:broaderQualifier | meshv:Qualifier 


如 表 4 所 示 , 在 MeSH 关联 数据 所 有 应 该 被 抽取 
的 35 个 知识 图 谱 概 览 三 元 组 中 , B 方 法 只 抽取 出 14 个 ， 
查 全 率 只 有 40%; 本 文 提出 的 方法 查 全 率 达 到 
94.28%。 如 图 3 ras, B 方法 未 能 抽取 的 知识 图 谱 概览 
三 元 组 主要 来 自 VirtRDF 和 MeSH 中 未 能 明确 标记 的 
知识 分 类 ; 本 文 方法 可 以 将 它们 抽取 出 来 ， 主 要 原因 
是 此 方法 遵循 自 底 向 上 思路 ， 即 通过 知识 关系 相对 于 
底层 知识 点 的 关联 来 反 推 上 层 知识 分 类 之 间 的 关联 ， 
从 而 避免 rdfs:domain 和 rdfs:range 等 知识 分 类 标记 和 缺 
失 的 问题 。 另 外 , 本 文 方法 仍 有 两 个 知识 图 谱 概 览 三 
元 组 未 能 抽取 出 来 , 是 因为 MeSH 在 定义 owl:Thing 
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图 3 B 方 法 未 能 抽取 的 知识 图 谱 概 览 三 元 组 


表 4 不 同 抽取 方法 的 查 全 率 对 比 表 


" zu BURR ao 
对 比 项 目 Bl 方法 B2 方 法 BB) HE 
抽取 知识 图 谱 概 览 
三 元 组 数量 i $ 14 33 
抽取 查 全 率 22.86% 17.1496 40.00% 94.28% 


时 使 用 了 两 个 基于 匿名 节点 的 复杂 知识 分 类 ， 导 致 本 
文 方法 的 查 全 率 未 达到 100%。 
44 多 个 关联 数据 访问 点 的 抽取 实验 

关联 数据 之 间 并 不 是 孤立 的 。 不 同 数据 源 可 以 来 
自 一 个 组 织 内 部 的 不 同系 统 , 也 可 以 来 自 不 同 组 织 的 
不 同系 统 。 数 据 源 的 内 容 、 存 储 地 点 以 及 存储 方式 都 
可 以 完全 不 同 , 但 它们 仍 可 能 存在 关联 。 笔 者 研发 的 
Cytoscape 插件 还 能 够 抽取 多 个 关联 数据 访问 点 的 知 
识 图 谱 概 览 并 展示 它们 之 间 的 关联 ， 主 要 包含 以 下 两 
种 情况 : 关联 “包含 "和 关联 “ 桥 ”。 

(1) 关联 “包含 ” 

如 表 5 所 示 , 笔者 抽取 了 两 个 生物 通路 关联 数据 
(HGNCP?!ft] MeSH) 的 知识 图 谱 概 览 , 运行 时 间 约 为 3 
分 钟 。 图 4 的 可 视 化 结果 中 用 不 同 的 形状 来 表示 来 自 
不 同 SPARQL 访问 点 的 知识 分 类 节点 。 但 是 , 可 视 化 
结果 中 并 没有 出 现 表 示 来 自 MeSH 数据 源 的 知识 分 类 
(三 角形 节点 ), 因为 HGNC 数据 源 的 知识 图 谱 概览 
含 MeSH 数据 源 的 所 有 内 容 , 被 包含 的 部 分 数据 也 显 
示 为 圆 形 。 
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表 5 HGNC fil BioCyc 关联 “包含 ”的 知识 图 谱 概 览 


抽取 实验 结果 
关联 数据 SPARQL 访问 点 RDF 三 元 组 个 数 ”图 示 节 点 形状 
HGNC 922 523 AT 
MeSH 654 198 三 角形 
关联 “包含 ” E 圆 É 


(2) 关联 “ 桥 ” 

在 图 5 的 可 视 化 结果 中 , Pathway Commons, 
Linkedspl 和 BioModel 的 关联 “ 桥 ”" 是 三 角形 和 方形 之 
间 的 圆 形 节 点 , 这些 圆 形 节点 就 是 三 个 关联 数据 同时 
包含 的 知识 分 类 。 图 5 中 右上 方 的 放大 子 图 也 显示 了 
关联 “ 桥 ? 是 m IR 4 2$ "http://www.biopax.org/release/ 
biopax-level3.owl#Pathway”。 用 户 还 可 以 通过 每 个 知 
识 分 类 圆 形 节点 的 “endpoint” 属 性 来 查看 其 所 属 的 
SPARQL 访问 点 。 当 用 户 获 得 这 个 知识 图 谱 概览 可 视 
化 图 之 后 , 还 可 nep d M ER 
据 源 的 关联 查询 。 这 三 个 关联 数据 的 数据 信息 如 表 6 
所 示 。 


表 6 关联 “ 桥 ” 的 知识 图 谱 概 览 抽取 实验 结 
关联 数据 SPARQL 访问 点 ”RDF 三 元 组 个 数 ”图 示 节 点 形状 


BioModel 2 380 009 三 角形 
Pathway Commons 27 623 683 方形 
Linkedspl 2 174 579 ZENA 
关联 “ 桥 ” 圆 形 
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E 4 HGNC 和 BioCyc 关联 “包含 ”知识 图 谱 概 览 抽取 可 视 化 图 


HE 


hitp;//bio2rdf org/panth coa /_vocabulary:Resource 


iran sportWith BiochemicalReaction @ 


图 5 关联 “ 桥 ” 知 识 图 谱 概 览 抽 取 可 视 化 图 


5 结 语 


本 文 关联 数据 知识 图 谱 概 览 抽取 方法 以 Cytoscape 
平台 为 依托 , 通过 分 步 抽取 方式 整合 各 类 知识 图 谱 概 
览 。 这 是 一 种 自 下 而 上 的 抽取 思路 。 通 过 生物 医学 领 
域 关 联 数据 实验 测试 表明 , 该 方法 以 知识 关系 为 切 人 
点 、 完 全 利用 SPARQL 查询 来 实现 抽取 ; 该 方法 抽取 
速度 快 而 稳定 、 抽 取 结 果 的 查 全 率 高 ， 且 不 需要 网 络 
疏 虫 或 额外 的 索引 工作 。 未 来 工作 主要 包括 : 研究 以 


匿名 节点 为 基础 的 复杂 知识 分 类 概览 抽取 算法 ， 例 如 
owl:unionOf CI、owl:allvaluesFromP3] 等 ， 并 整合 到 关 
联 数据 知识 图 谱 概 览 抽取 方法 中 ; 完善 插件 功能 ， 并 
提供 OWL202 知 识 图 谱 概 览 的 可 视 化 功能 。 
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Extracting and Visualizing Knowledge Graph Schema from 
Linked Data with Cytoscape Platform 


Jiang Ying Zhang Jing Zhu Lingxuan 
(School of Management, Beijing Normal University, Zhuhai, Zhuhai 519087, China) 


Abstract: [Objective] This paper proposes a new method to generate knowledge graph schema, aiming to help us 
understand the data structure before submitting a query, and improve the perfornamce of linked data retrieval. 
[Methods] First, we searched knowledge relations of the linked data through SPARQL. Second, we constructed 
knowledge graph schema triples for each identified relation. Finally, we extracted graphs schema triples from every 
knowledge class and merged them with those of the relations. [Results] A Cytoscape plugin was developed based on 
the proposed method to visualize the knowledge graph schema. [Limitations] Our method could not extract knowledge 
from complex classtification, such as anonymous nodes. [Conclusions] The proposed method was examined with 
biomedical data for single, inclusive, and bridge extractions. It could retrieve information effectively, and does not need 
additional crawling and index efforts. 
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